数据加工
功能简介
当 aPaaS 应用对象模型对应数据表的数据无法满足对应的分析需求场景时,可以基于这些原始对象模型数据进行二次数据加工。通过对数据的过滤、分组汇总、新增列、左右合并、上下合并、排序等加工方式,将原始数据转为为一张直接可用于创建仪表板组件的自助数据集(数据表)。
自助数据集简介
数据集即为表,自助数据集是用户通过各种功能自助分析后获得的表,即用户处理后的表。下面用一个流程图展示使用自助数据集进行数据加工的流程。
数据加工中自助数据集功能如下:
功能 | 功能说明 |
---|---|
新建自助数据集 | 以一个示例展示如何创建一个自助数据集并进行自助分析 |
选择字段 | 选择自助数据集需要的字段,可以将不同表的字段放在一张自助数据集上(前提是这些表之间建立了关联 ) |
过滤 | 对已有的数据进行过滤 |
分组汇总 | 先对数据进行分组,然后对分组后的数据进行汇总计算 |
新增列 | 在不影响原数据的情况下通过对现有数据列计算而得到的一个新的数据列,保存在业务包中以供后续业务分析使用。例如:数据格式的转化、时间差、分组赋值、获取时间、组内排名等 |
隐藏字段 | 在“字段设置”中取消勾选某个字段,即可在表格中不显示改字段 |
修改字段名称 | 在“字段设置”可修改字段的显示名 |
更改字段类型 | 在“字段设置”可更改字段的数据类型,例如:将数值类型改为文本类型 |
排序 | 对字段进行重新排序 |
左右合并 | 将两张表左右拼接在一起形成一张新表使用 |
上下合并 | 将两张表上下拼接成一张新表使用 |
创建自助数据集
- 登录 千帆 aPaaS 设计态首页,单击【BI 工具(Beta)】>【数据加工】>【我的自助数据集】>【添加表】>【自助数据集】。
- 勾选数据表及关联数据表中需要用于分析的字段。
当表间建立关联关系后,即可选到关联表字段。
- 修改表名,单击【保存】,即新建成功。
进行表处理
过滤
如果原数据表包含历史所有的合同时间,而在使用时只需要使用2017年的数据,则对原表进行过滤处理再使用即可。
操作步骤
- 登录 千帆 aPaaS 设计态首页,单击【数据加工】>【添加表】>【自助数据集】。从系统自带的数据表中选择需要的字段“产品名称、合同金额、购买数量、合同签约时间”,右侧数据预览界面即显示选择的字段,如下图所示:
- 选好字段后,添加过滤。用户可以通过“添加条件”或“添加公式”来进行过滤,如下图所示:
- 添加公式过滤,用户通过公式对数据进行过滤,例如:需要过滤出合同单价大于一百万的数据(合同单价可以通过合同金额/购买数量获得)。
- 如下图所示,输入公式,单击【确定】,筛选出合同单价大于一百万的数据,如下图所示:
公式中的字段需要单击字段框选择,手动输入则无效。
- 添加条件过滤。单击【添加条件】>【请选择字段】,选择要进行过滤的字段。如下图所示:
- 选择过滤条件,如下图所示:
过滤条件
字段类型 | 可选择的过滤条件 |
---|---|
文本字段 | 可选择:属于、不属于、包含、不包含、为空、非空、开头是、开头不是、结尾是、结尾不是;选择属于/不属于后可选择已有的字段值作为过滤依据,其余过滤条件均需输入文字来进行过滤;开头是/开头不是的过滤条件,不支持输入“}”该特殊字符 |
数值字段 | 可选择:介于、不介于、等于、不等于、大于、小于、大于等于、小于等于、为空、非空;其中抽数版本的大于、小于、大于等于、小于等于在过滤时,可以选择固定值或者平均值作为过滤依据;固定值为手动输入的值,而平均值则为系统自动计算该数值字段的平均值并根据条件过滤 |
日期字段 | 可选择:属于、不属于、某个日期之前(包含该日期)、某个日期之后(包含该日期)、等于、不等于、为空、非空;日期时间可选包含固定时间和动态时间。固定时间即为固定的年/月/日选项,动态时间可选为相对当前时间的条件设置,在预览数据时会根据当前时间动态变化 |
- 设置动态时间过滤。设置合同签约时间属于2016-01-01到五年前的今天,如下图所示:
- 单击【确定】后过滤出的结果如下图所示:
分组汇总
功能简介:分组汇总是指对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算。BI 中通过设置分组字段和汇总字段实现。
案例:本例展示每个季度长期合同与短期合同对应合同金额平均值。
操作步骤
- 登录 千帆 aPaaS 设计态首页,单击【数据加工】>【自助数据集】>【添加表】>【自助数据集】。
- 进入自助数据集配置界面,从业务包的数据表中选择需要的字段,右侧预览中即显示选择的字段,如下图所示:
此处只能选择已添加并进行数据更新的数据表,未更新的数据表不能用于创建自助数据集。
- 添加分组字段:
- 选择分组字段:
+ 在左侧的操作流程中选择【分组汇总】,如下图所示:
- 进入分组汇总配置界面,将“合同签约时间”和“合同类型”字段拖入分组栏,如下图所示:
- 设置分组方式:
- 单击字段下拉,对合同签约时间选择【年季度】分组方式,如下图所示:
- 单击字段下拉,对合同类型选择【自定义分组】方式,如下图所示:
- 弹出设置框,单击【添加分组】,修改组名为“长期订单”,如下图所示:
- 选择【长期协议订单】和【长期协议】,单击【移动到】,将其移动至【长期订单】分组下,如下图所示:
- 勾选【未分组的值分到】,输入分组名为“短期订单”,单击【确定】,则分组成功,如下图所示:
- 分组字段设置支持范围:分组字段支持添加文本字段、数值字段、时间字段,默认不填入字段,均支持重命名、删除字段操作。
字段类型 支持分组方式 说明 文本字段 相同值为一组、自定义分组 相同值为一组即表示按照文本字段中的相同值分组;
自定义分组即表示对文本包含的字段中自行定义分组数值字段 相同值为一组、区间分组 相同值为一组即按照数值字段的相同值为一组;
区间分组包含两种方式:自动和自定义分组:- 自动分组系统默认根据最大最小值设置区间间隔,分为5组,其中区间间隔的数值也可修改。
- 自定义分组默认按照自动分组的区间间隔设置分组,区间间隔可以修改。支持添加、修改、删除分组,同时支持对分组自定义命名和将未定义分组的剩余值分组到一个自定义命名的分组,且该项默认开启。
时间字段 支持17种分组类型,包括年月日、年份、季度、月份、星期、日、周数、时、分、秒、年季度、年月、年周数、年月日时、年月日时分、年月日时分秒 无
- 添加汇总字段:
- 选择汇总字段:将合同金额字段拖入汇总栏,如下图所示:
- 设置汇总方式:单击字段下拉,对合同金额选择【平均】汇总方式,如下图所示:
- 汇总字段设置支持范围:分组字段支持添加文本字段、数值字段、时间字段,默认不填入字段,均支持重命名、删除字段操作。
字段类型 支持分组方式 说明 文本字段 去重计数记录个数字符串拼接(注意:仅抽取数据支持)。
近似去重计数(注意:仅实时数据支持)。去重计数是指将该字段中相同的值只统计一次,即统计不同值的个数,可以理解为 count(distinct 字段)。 - 记录个数是指记录该字段的个数,相当于 count(*)。
- 字符串拼接是指按分组栏将该字段下的数据值进行字符串的拼接,拼接成一个值。当计算数据非常大时,传统的精确的去重计数可能无法计算,使用近似的去重计数则可以快速计算出结果(注意:计算结果精确度取决于数据库类型和数据量,理论上数据量越小与去重计数结果差别越小)。
数值字段 求和求平均求最大值求最小值去重计数近似去重计数(注意:仅实时数据支持)。记录个数求方差求标准差求中位数,默认为求和同比/环比。 其中同期、同比增长值、同比增长率又有年、季度、月、周的时间周期选项(同比、环比的详细使用请参考表格快速计算 )。 时间字段 去重计数近似去重计数(注意:仅实时数据支持)。记录个数最早时间最晚时间。 去重计数是指将该字段中相同的值只统计一次,即统计不同值的个数,可以理解为 count(distinct 字段),当计算数据非常大时,传统的精确的去重记录数可能无法计算,使用近似的去重记录数可以很快计算出结果(注意:计算结果精确度取决于数据库类型和数据量,理论上数据量越小与去重计数结果差别越小)。 - 记录个数是指记录这个字段一共有多少个,相当于 count(*)最早时间和最晚时间指的是分组内的最早、最晚时间。
- 效果查看:分组汇总设置完毕后单击右上角【保存】并在更新数据后,在业务包中即可查看新建的自助数据集,如下图所示:
新增列
功能简介: 新增列是指业务人员在不影响原数据的情况下通过对现有数据列计算而得到的一个新的数据列,保存在业务包中以供后续业务分析使用。例如:数据格式的转化、时间差、分组赋值等,可以使用新增列功能。
操作步骤
- 选择数据准备下的“合同事实表”作为示例数据,单击【创建自助数据集】,如下图所示:
- 选字段时勾选“合同事实表”所有的字段,并添加【新增列】,如下图所示:
- 选择【公式/函数】。使用合同金额/购买数量,获得一个新的均价字段,字段类型选择【数值】,如下图所示:
- 默认字段类型为自动,系统根据生成的结果进行字段类型的字段自动判断。
- 公式框中的函数、字段都需要单击左侧的选择区域选择,不能手动输入。
- 单击【确定】,即可在数据预览框看到新增的数据列“均价”,如下图所示:
字段设置
功能简介:字段设置功能可以对已有字段进行重新设置,业务人员可以直接在原数据表的基础上新增一张表对数据进行字段设置并保存以供后续分析使用。在字段设置中可以进行:隐藏字段、修改字段名称、调整字段顺序。
字段设置无法修改字段类型,如需要修改字段类型通过新增列方式来设置。
操作步骤
- 进入“BI 工具(Beta)”页签,单击【数据加工】>【我的自助数据集】>【添加表】>【自助数据集】,选择【销售 DEMO】数据表。
- 从两张表中选择需要的字段,如下图所示:
- 添加【字段设置】,如下图所示:
- 修改字段名:进入字段设置界面,鼠标悬浮在需要修改的字段上,即可修改字段名。
- 隐藏字段:如果在自助数据集中不再需要某个字段,可以通过取消勾选进行隐藏。例如:取消勾选【购买数量】字段,右侧将不展示购买数量字段,如下图所示:
对于之前创建的使用部分字段的自助数据集,若在后续想要对该自助数据集增加字段,可直接进入历史步骤中增加。对原先使用该自助数据集做的关联、数据分析等均无影响。
- 将材料名称字段排在第一个,如下图所示,单击“末尾”图标,鼠标拖拽即可。保存并更新该自助数据集,以上操作全部生效。
左右合并
应用场景 在实际使用数据的过程中经常会需要将两张表联合在一起形成一张新表使用的情况,假如有以下两张数据表:
- Table A:记录学生姓名、英语成绩
- Table B:记录学生姓名、数学成绩
如果想直接在一张表中查看学生的姓名、数学成绩和英语成绩,则可以使用“姓名”字段作为“合并依据”进行左右合并。不同的合并方式如下所示:
示例 例如:在地产行业业务包中有两张数据表:签约事实表(FACT_SALE_CONTRACT)和合同维度表(DIM_CONTRACT),需要将这两张表根据合同 ID 字段联合形成一张新表且保证签约事实表的数据不丢失,此时可以通过左右合并来实现。
- 创建自助数据集:
- 进入【数据加工】>【我的自助数据集】,单击【添加表】>【自助数据集】。
- 进入自助数据集配置界面,从“地产行业”业务包的“签约事实表”中选择需要添加到最终表中的字段,此处全选签约事实表中的字段,如下图所示:
- 此处只能选择已添加并进行数据更新的数据表,未更新的数据表不能用于创建自助数据集。
- 建议用户在进行左右合并前,减少表字段名称长度,避免出现字段名称过长导致的自助数据集保存失败问题。
- 选择合并的数据表:
- 添加字段后在左侧的操作栏单击【+】 ,选择【左右合并】,如下图所示:
- 选择要合并的表为【合同维度表】,并选择要添加的字段,单击【确定】,如下图所示:
- 添加合并依据:
- 进入左右合并设置界面,为保证签约事实表的数据完整,需要选择【左合并】方式。此时在合并依据栏会自动出现两张表共同的字段为“合并依据”,此处为“ CONTRACTGUID”合同 ID 字段,如下图所示: 此处添加的两个表中的合并依据字段必须为同一类型的,字段类型不一致不能左右合并,需要进行字段类型转化。用户也可以手动更改合并依据字段,或添加多个合并依据。
- 在添加完合并依据后,下方的数据预览框即会出现合并后新表的数据预览,如下图所示:
- 若想要修改之前已经添加的要合并的表/字段,可将鼠标悬浮在要合并的表一栏,单击【编辑】重新选择表和字段,如下图所示:
合并方式说明
合并方式 | 说明 |
---|---|
左合并 | 对应 SQL 语句中的 left join |
右合并 | 对应 SQL 语句中的 right join |
交集合并 | 对应 SQL 语句中的 inner join |
并集合并 | 对应 SQL 语句中的 full join |
- 效果查看:单击右上角的【保存/另存为】并更新数据后,在业务包中可以查看处理过的自助数据集。
多个合并依据
实现“部门人数”和“销售额”合并到一张表中,如下图所示:
无法单独使用一个字段作为合并依据,所以需要“部门、地区”字段共同作为合并依据。多个合并依据的意义即保证左右合并时数据的唯一性,如下图所示:
注意事项
数据字段要求:数据表的字段有空格会导致左右合并结果异常,在进行左右合并前,请确保合并数据表字段中没有空格。如下图所示:
上下合并
应用场景
可能存在这样的情况:某公司由于历史原因,把订单信息分开存储在多个地方,不同分公司独立存储,导致信息并不通畅,则在 FineBI 中即可使用上下合并将数据表拼接成一个,把所有订单信息协调在一起。效果如下图所示:
操作步骤
与左右合并类似,我们同样使用地产行业的签约事实表与其他表做上下合并的操作。
- 进入【数据准备】>【我的自助数据集】>【添加表】>【自助数据集】。
- 进入自助数据集配置界面,从业务包的签约事实表中选择需要添加到最终表中的字段,此处我们全选签约事实表中的字段。
此处只能选择已添加并进行数据更新的数据表,未更新的数据表不能用于创建自助数据集。
- 添加完字段后在左侧的操作栏单击【+】,选择【上下合并】,如下图:
- 进入上下合并配置页面,需要选择合并的表,可以添加一张或多张表参与合并。此处我们选择要合并的表为成本事实表、库存事实表,如下图:
- 单击【确定】进入合并配置界面,显示当前表字段、已选合并表的所有字段及合并的结果集,如下图:
- 当前默认添加选择合并表的所有字段,单击可进行字段的选择和删除已选表,如下图:
- 选择要合并的字段后,页面下方将出现合并后的数据预览,如下图:
- 在合并结果集字段处单击字段,可以对字段进行重命名操作,如下图:
- 单击上方的编辑合并表,可重新选择要合并的表,如下图:
- 单击右上角的【保存/另存为】并更新数据后,即可查看处理过的新表。